影像辨識的輸入為一張圖片,輸出可以是一個向量,向量的長度就是可以辨識的種類數。而輸入的圖片是一個三維的 tensor。但如果將三維的 tensor 拉平來餵入模型,這個模型就會有爆炸多的參數。模型的參數越多,雖然可以增加模型的彈性,但也會增加模型 overfitting 的問題。
但其實可以不用一個像素一個像素來看,而是找出特徵來看就好。譬如說,辨識一隻鳥可以看有沒有鳥的眼睛、有沒有鳥的嘴就好了,其他的地方就不用看了。這邊每個 neurons 則是負責看一個 receptive field,而 receptive field 的範圍或做法可以根據需要來改變設計。而最經典的 receptive field 會看全部的 channels。
接著介紹幾個名詞
此外 CNN 還有個重要的特性,就是不同的 receptive field 共享參數。也就是同一個 neuron 來偵測相同特徵。
fully connected layer > receptive field > parameter sharing (Convolutional Layer)